년 7월 AI 및 로봇 분야 연구 동향

년 7월 AI 및 로봇 분야 연구 동향

1. 서론: 물리 AI(Physical AI) 시대의 서막: 시뮬레이션과 생성 모델의 융합

2024년 7월은 인공지능(AI) 기술이 디지털 공간의 한계를 넘어 물리 세계와 직접적으로 상호작용하고 학습하는 ‘물리 AI(Physical AI)’ 패러다임으로의 전환이 본격화된 중요한 시점으로 기록될 것이다. 이 시기에 발표된 일련의 연구 및 기술 개발 성과는 세 가지 핵심적인 기술적 흐름의 융합을 명확히 보여준다: (1) 대규모 병렬 시뮬레이션을 통한 학습의 가속화, (2) 생성 모델, 특히 확산 정책(Diffusion Policy)을 활용한 정교한 로봇 제어, 그리고 (3) 데이터 중심의 로봇 학습 패러다임 강화가 바로 그것이다.1 이 세 가지 흐름은 개별적으로 발전하는 것이 아니라, 서로 유기적으로 결합하여 로봇 지능의 발전을 전례 없는 속도로 이끌고 있다.

특히 주목할 만한 변화는 로봇 학습의 근간이 되는 ’데이터’의 정의가 근본적으로 확장되고 있다는 점이다. 과거 로봇 학습에서 데이터는 주로 인간이 실제 로봇을 원격으로 조종하여 수집한 물리적 시연(demonstration)에 국한되었다. 이는 막대한 시간과 비용을 요구하며, 수집 가능한 데이터의 양과 다양성을 제한하는 근본적인 병목으로 작용해왔다. 그러나 2024년 7월의 기술 동향은 이러한 한계를 극복할 새로운 가능성을 제시한다. NVIDIA의 Isaac Sim과 같은 고충실도 물리 시뮬레이션 플랫폼과 Google의 MuJoCo 시뮬레이터 활용 사례에서 명확히 드러나듯, 물리적으로 정확한 가상 환경에서 생성된 **‘합성 데이터(Synthetic Data)’**가 실제 데이터의 양과 질을 보완하거나, 심지어는 대체하는 핵심 자원으로 부상했다.4

이러한 패러다임의 전환은 로봇 학습의 경제성과 확장성을 근본적으로 바꾸고 있다. 시뮬레이션 환경에서는 수천, 수만 번의 시행착오를 거의 비용 없이 병렬적으로 수행할 수 있으며, 현실에서는 구현하기 어려운 위험하거나 극단적인 상황에 대한 데이터도 안전하게 생성할 수 있다. 이렇게 생성된 방대한 양의 합성 데이터는 로봇이 더 강건하고 일반화된 행동 정책(policy)을 학습하는 기반이 되며, 이는 ‘Sim-to-Real’ 즉, 시뮬레이션에서 학습하여 현실로 이전하는 접근법의 성공 가능성을 비약적으로 높이고 있다.

본 보고서는 이러한 기술적 변곡점을 중심으로 2024년 7월 AI 및 로봇 공학 분야의 주요 동향을 심층적으로 분석하고자 한다. 제1장에서는 미국 중심의 기술 패권 강화, AI 모델의 개발 비용 급증과 같은 거시적 환경을 분석한다. 제2장과 제3장에서는 각각 Google, NVIDIA와 같은 산업계 리더들과 퍼듀 대학교, UC 샌디에이고 등 학계의 구체적인 연구 성과를 심층적으로 탐구한다. 마지막으로 제4장에서는 이러한 발전을 가능하게 한 모방 학습, 생성 모델, 강화 학습의 핵심 알고리즘 변화를 기술적으로 분석할 것이다. 이를 통해 2024년 7월이 물리 AI 시대의 본격적인 서막을 연 시점임을 다각적으로 조망하고자 한다.

2. 2024년 AI 및 로봇 공학의 거시적 동향: 패권, 비용, 그리고 시장

2024년 AI 및 로봇 공학 분야의 발전은 순수한 기술적 진보를 넘어, 지정학적 패권 경쟁, 천문학적인 개발 비용, 그리고 폭발적으로 성장하는 시장이라는 거시적 환경과 복잡하게 얽혀 있다. 기술의 발전 방향과 속도는 이제 이러한 외부 요인에 의해 크게 좌우되고 있으며, 이는 기술 독점과 국가 간 불균형이라는 새로운 과제를 제기하고 있다.

2.1 글로벌 AI 패권 경쟁: 미국 중심의 기술 주도권 강화

2024년, 글로벌 AI 패권 경쟁은 미국 중심의 일극 체제가 더욱 공고해지는 양상을 보였다. Tortoise Media가 발표한 Global AI Index에 따르면, 미국은 기술력, 투자, 인력 등 AI 경쟁력의 모든 핵심 지표에서 타 국가와의 격차를 더욱 벌리며 독보적인 1위 자리를 굳혔다.8 이러한 미국의 압도적인 우위는 두 가지 주요 요인에 기인한다. 첫째, Google, OpenAI, NVIDIA와 같은 미국 빅테크 기업들이 AI 모델 및 인프라 기술 개발을 주도하며 기술적 초격차를 유지하고 있다. 둘째, 미국 정부의 강력한 대중국 첨단 기술 견제 및 투자 제한 조치가 중국의 추격 속도를 늦추고, 상대적으로 미국의 지위를 더욱 강화하는 효과를 낳았다.8

중국은 AI 관련 논문 출판 수나 특허 등록 건수와 같은 양적인 지표에서는 세계 1위를 기록하며 저변을 넓히고 있으나, GPT-4나 Gemini Ultra와 같은 최첨단 AI 모델 개발 능력과 같은 질적 기술력 측면에서는 여전히 미국이 장기간 주도권을 유지하고 있는 것으로 분석된다.8 이는 AI 기술의 발전이 단순한 연구 인력의 양을 넘어, 막대한 자본과 컴퓨팅 인프라, 그리고 핵심 고급 인재의 질에 의해 결정됨을 시사한다.

이러한 상황에서 한국을 포함한 추격 그룹 국가들은 심각한 도전에 직면해 있다. 특히 한국은 AI 인재 1만 명당 약 0.3명이 순유출되는 것으로 나타나, 이스라엘과 인도에 이어 세계 3위의 AI 인재 유출 국가로 기록되었다.8 핵심 인력의 확보 및 유지가 국가 AI 경쟁력의 가장 중요한 변수로 부상한 가운데, 인재 유출 문제는 국가적 차원의 시급한 과제로 대두되고 있다.

2.2 AI 모델의 경제학: 기하급수적 비용 증가와 독점화 우려

최첨단 AI 모델 개발의 경제학은 ’규모의 경제’가 극단적으로 작용하는 전형적인 사례를 보여준다. 모델의 성능을 높이기 위해 필요한 학습 비용이 기하급수적으로 증가하고 있기 때문이다. 초기 트랜스포머 기반 모델인 RoBERT의 학습 비용이 약 16만 달러였던 것에 비해, OpenAI의 GPT-4는 최대 1억 달러, 구글의 Gemini Ultra는 1억 9천만 달러에 달하는 것으로 추정된다.8 이는 불과 수년 만에 학습 비용이 수백 배에서 천 배 가까이 증가했음을 의미하며, 이러한 비용을 감당할 수 있는 주체는 소수의 글로벌 빅테크 기업으로 한정된다.

이러한 막대한 자본 투자의 결과, 이들 기업이 개발한 플래그십 ’폐쇄형 모델(Closed-source)’과 오픈소스 커뮤니티 중심의 ‘개방형 모델(Open-source)’ 간의 성능 격차는 점차 벌어지는 추세다. 다수의 벤치마크 평가에서 폐쇄형 모델은 개방형 모델보다 평균 24.2%, 일부 태스크에서는 최대 4배 더 우수한 성능을 보이는 것으로 나타났다.8 흥미로운 점은, 최상위권 폐쇄형 모델들(예: GPT-4, Gemini Ultra) 간의 성능 격차는 대규모 다중작업 언어이해(MMLU) 벤치마크 점수 기준으로 점차 줄어들고 있다는 것이다. 이는 AI 기술이 특정 임계점에 도달하고 있음을 시사하는 동시에, 최상위 리그에 진입하기 위한 장벽이 얼마나 높은지를 역설적으로 보여준다.

이러한 현상은 AI 기술 발전의 과실이 소수 거대 기업에 의해 독점될 수 있다는 심각한 우려를 낳는다. 막대한 자본과 인프라 없이는 최첨단 AI 모델 개발 경쟁에 참여조차 할 수 없는 구조가 고착화될 경우, 기술적 종속은 심화될 수밖에 없다. 다른 국가나 중소기업들은 이들 빅테크가 제공하는 플랫폼 위에서 응용 서비스를 개발하는 데 만족해야 하는 상황에 처할 수 있으며, 이는 장기적으로 기술 생태계의 다양성과 혁신을 저해하는 요인으로 작용할 수 있다. 결국, AI 모델의 학습 비용 증가는 단순한 경제적 현상을 넘어, 기술 독점과 지정학적 힘의 불균형을 야기하는 근본적인 동인으로 작용하고 있다.

모델명 (Model)개발사 (Developer)추정 학습 비용 (Estimated Training Cost)MMLU 점수 (Score)비고 (Notes)
RoBERTGoogleUSD 160,000-초기 트랜스포머 모델
GPT-4OpenAIUSD 78M - USD 100M86.4%인간 전문가 수준 근접
Gemini UltraGoogleUSD 191M90.04%인간 전문가 수준 초과 (89.8%)

[표 1] 주요 AI 모델 학습 비용 및 성능 비교 8

2.3 시장 전망 및 주요 투자 동향

기술 독점화에 대한 우려에도 불구하고, AI 시장 자체는 폭발적인 성장을 예고하고 있다. Fortune Business Insights의 분석에 따르면, 전 세계 AI 시장 규모는 2024년 2,334억 6천만 달러에서 연평균 29.2% 성장하여 2032년에는 1조 7,716억 2천만 달러에 이를 것으로 전망된다.9 지역적으로는 북미가 2024년 기준 32.93%의 점유율로 시장을 주도하고 있으며, 향후 아시아 태평양 지역이 가장 높은 성장률을 보일 것으로 예상된다.9

이러한 장밋빛 전망 속에서 2024년 7월에도 주목할 만한 투자들이 이어졌다. 특히 양자 컴퓨팅 기업 D-wave와 AI 소프트웨어 기업 Zapata가 양자 AI 융합 솔루션 개발을 위해 파트너십을 체결한 것은, AI 기술이 기존의 컴퓨팅 패러다임을 넘어 새로운 영역과 결합하려는 시도를 보여주는 상징적인 사례다.9

로보틱스 분야에서는 AI 소프트웨어와 로봇 하드웨어 양쪽에서 활발한 투자가 이루어졌다. 로보틱스를 위한 파운데이션 모델을 개발하는 스타트업 Skild AI는 3억 달러 규모의 시리즈 A 투자를 유치하며 단숨에 15억 달러의 기업 가치를 인정받았다. 이는 로봇의 ’두뇌’에 해당하는 AI 소프트웨어의 가치가 얼마나 높게 평가받고 있는지를 보여준다.3 동시에, 협동 로봇 팔을 제조하는 Standard Bots 역시 6,300만 달러의 투자를 유치하며 로봇 하드웨어 시장의 성장 잠재력을 입증했다.3 이처럼 소프트웨어와 하드웨어 생태계 전반에 걸친 투자는 AI와 로봇 기술이 상호 발전을 촉진하며 거대한 시너지를 창출하고 있음을 시사한다.

3. 산업계를 선도하는 기업들의 핵심 연구 개발: 물리 세계로의 확장

글로벌 AI 패권 경쟁의 최전선에 있는 Google과 NVIDIA는 2024년 7월, AI 기술을 디지털 세계에서 물리 세계로 확장하기 위한 야심 찬 연구 개발 성과들을 쏟아냈다. 이들의 전략은 표면적으로는 달라 보이지만, ’데이터와 시뮬레이션’을 중심으로 로봇 학습 패러다임을 근본적으로 바꾸고 있다는 공통점을 가진다. 이는 과거 특정 작업을 위해 정교한 알고리즘을 직접 코딩하던 ‘코드 중심(Code-centric)’ 접근법에서, 방대한 데이터로부터 로봇의 행동 정책을 스스로 학습하게 하는 ‘데이터 및 시뮬레이션 중심(Data & Simulation-centric)’ 접근법으로의 전환을 의미한다.

3.1 Google/DeepMind: 에이전트 AI와 로봇 정교화의 진전

Google은 2024년을 ’에이전트 시대(agentic era)’로 규정하고, 차세대 AI 모델인 Gemini 2.0을 기반으로 로봇이 인간처럼 복잡하고 정교한 물리적 과업을 수행하는 능력에 연구 역량을 집중했다.10 7월에 발표된 ALOHA Unleashed와 DemoStart 연구는 이러한 방향성을 명확히 보여주는 대표적인 성과다.

3.1.1 ALOHA Unleashed: 양팔 로봇의 정교한 조작을 위한 모방 학습

ALOHA Unleashed는 양팔 로봇(bimanual robot)이 인간의 정교한 양손 작업을 모방하여 학습하는 연구의 정점을 보여준다.10 이 연구의 핵심은 기존 로봇 공학의 난제였던 변형 가능한 물체(deformable objects)를 다루거나 복잡한 접촉 역학(contact-rich dynamics)이 요구되는 작업을 해결했다는 데 있다.

기술적으로 ALOHA Unleashed는 세 가지 핵심 요소의 결합으로 이루어져 있다. 첫째, 스탠포드 대학에서 시작된 저비용 오픈소스 원격 조종 하드웨어 플랫폼인 ’ALOHA 2’를 활용하여, 전문가가 아닌 일반인도 쉽게 고품질의 양손 조종 데이터를 대규모로 수집할 수 있는 프레임워크를 구축했다.11 둘째, 수집된 시각 및 관절 데이터를 입력받아 로봇의 행동을 생성하기 위해, 이미지 생성 분야에서 뛰어난 성능을 입증한 확산 모델(Diffusion Models)을 정책(policy) 학습에 적용한 ‘Diffusion Policy’ 아키텍처를 사용했다.13 셋째, 이 모든 것을 트랜스포머(Transformer) 기반의 신경망 구조 위에서 구현하여 시계열 데이터의 장기 의존성을 효과적으로 학습하도록 했다.13

이러한 접근법을 통해 ALOHA Unleashed는 놀라운 성과를 달성했다. 로봇은 스스로 신발끈을 묶고, 티셔츠를 옷걸이에 걸고, 심지어는 고장 난 다른 로봇의 손가락 부품을 교체하는 등, 이전에는 자동화가 불가능하다고 여겨졌던 고도의 정교함을 요구하는 작업을 성공적으로 수행했다.7 이는 대규모 고품질 데이터와 강력한 생성 모델의 결합이 로봇 조작 능력의 한계를 뛰어넘을 수 있음을 실증적으로 보여준 사례다.

3.1.2 DemoStart: 시뮬레이션을 통한 다지 로봇 손의 강화 학습

ALOHA Unleashed가 실제 세계의 시연 데이터에 집중했다면, DemoStart는 시뮬레이션 환경을 적극적으로 활용하여 다지(multi-fingered) 로봇 손의 정교한 조작 능력을 학습시키는 데 초점을 맞췄다.10 다지 로봇 손은 인간의 손과 유사하여 잠재력은 크지만, 자유도가 매우 높아 제어가 극도로 어려운 것으로 알려져 있다.

DemoStart의 핵심 기술은 ‘자동 커리큘럼 강화학습(auto-curriculum Reinforcement Learning)’ 방법론이다.15 이 방법은 완벽한 전문가의 시연 데이터가 아닌, 소수의 불완전한 시연 데이터와 작업의 성공 여부만을 알려주는 희소 보상(sparse reward)만으로 학습을 시작한다. 알고리즘은 시연 데이터에서 가장 쉬운 상태부터 학습을 시작하여 점차 어려운 상태로 학습 범위를 넓혀가는, 즉 스스로 학습의 난이도를 조절하는 커리큘럼을 생성한다.7

이렇게 시뮬레이션(MuJoCo 물리 엔진 사용) 내에서 충분히 학습된 정책은 ‘도메인 무작위화(domain randomization)’ 기법을 통해 현실 세계로 이전된다. 이 기법은 시뮬레이션 환경의 조명, 질감, 물리 계수 등을 무작위로 변경하여 학습함으로써, 시뮬레이션과 현실 간의 차이(Sim-to-Real gap)에 강건한 정책을 만드는 데 도움을 준다.7 그 결과, DemoStart로 학습된 로봇은 별도의 미세 조정 없이 ’제로샷(zero-shot)’으로 실제 환경의 작업에 투입될 수 있다.

성과 또한 주목할 만하다. 시뮬레이션 환경에서 플러그를 소켓에 삽입하거나 너트와 볼트를 조이는 등의 복잡한 과제에서 98% 이상의 높은 성공률을 기록했다. 더 중요한 것은, 실제 로봇을 이용한 실험에서도 큐브의 방향을 맞추는 작업에서 97%, 높은 정밀도를 요구하는 플러그 삽입 작업에서 64%의 성공률을 보였다는 점이다.7 이는 실제 로봇 시연 데이터를 사용했을 때보다 100배나 적은 양의 (시뮬레이션) 데이터로 더 높은 성능을 달성한 것으로, 시뮬레이션 기반 학습의 엄청난 효율성과 잠재력을 입증한 결과다.

3.2 NVIDIA: 물리 AI 시대를 위한 통합 개발 플랫폼 구축

Google이 특정 로봇의 지능을 고도화하는 데 집중하는 동안, NVIDIA는 물리 AI 개발의 전 과정을 아우르는 통합 플랫폼과 생태계를 구축하는 데 주력하고 있다. 이는 마치 PC 시대의 Microsoft가 운영체제(OS)를 제공하여 하드웨어와 소프트웨어 생태계를 장악했던 전략과 유사하다. NVIDIA는 2024년 7월, ’세 가지 컴퓨터(Three Computers)’라는 비전을 제시하며 로보틱스 생태계의 ’OS 제공자’로서의 입지를 확고히 했다.4

3.2.1 NVIDIA의 ‘Three Computers’ 전략

NVIDIA의 전략은 로봇 AI 개발 파이프라인을 세 개의 핵심 컴퓨팅 단계로 나누고, 각 단계에 최적화된 하드웨어와 소프트웨어 스택을 제공하는 것이다.4

  1. 학습 컴퓨터 (Training Computer): NVIDIA DGX와 같은 AI 슈퍼컴퓨터를 사용하여 로봇을 위한 대규모 파운데이션 모델(Foundation Models)을 학습시킨다. 이는 로봇의 ’두뇌’를 만드는 단계에 해당한다.4
  2. 시뮬레이션 컴퓨터 (Simulation Computer): NVIDIA Omniverse 플랫폼과 RTX PRO 서버를 활용하여 물리적으로 정확한 디지털 트윈(Digital Twin) 환경을 구축한다. 개발자들은 이 가상 환경에서 로봇의 행동 정책을 안전하게 테스트하고, 방대한 양의 합성 데이터를 생성하며, 실제 공장 라인에 배치하기 전에 전체 시스템을 최적화할 수 있다.4
  3. 실행 컴퓨터 (Runtime Computer): 학습되고 검증된 AI 모델을 NVIDIA Jetson Thor와 같은 고성능 엣지 컴퓨팅 플랫폼에 탑재하여 실제 로봇에서 실시간으로 추론(inference)을 수행한다. 이는 학습된 ’두뇌’를 로봇의 ’몸’에 이식하는 단계다.4

이 세 가지 컴퓨터는 유기적으로 연결되어, 아이디어 구상부터 모델 학습, 시뮬레이션, 검증, 그리고 실제 로봇에의 배포까지 끊김 없는 개발 워크플로우를 제공한다.

3.2.2 Isaac Lab과 AutoMate: 시뮬레이션 기반 학습의 핵심

이러한 거대 전략의 중심에는 Isaac Sim이라는 핵심 시뮬레이션 플랫폼과 그 위에서 동작하는 학습 프레임워크들이 있다. Isaac Lab은 Omniverse 기반의 오픈소스 로봇 학습 프레임워크로, 강화학습(RL)과 모방학습(IL)을 모두 지원하며 고도로 병렬화된 학습을 가능하게 한다.5 특히, 클라우드 네이티브 워크플로우 오케스트레이션 플랫폼인

NVIDIA OSMO와 연동될 경우, 다중 GPU 및 다중 노드 환경에서 합성 데이터 생성, 모델 훈련, Software-in-the-loop 테스트와 같은 복잡한 작업을 효율적으로 확장하고 관리할 수 있다.5

2024년 7월 11일에 발표된 AutoMate 프레임워크는 Isaac Sim의 잠재력을 구체적인 산업 응용 분야로 확장한 사례다.6 AutoMate는 시뮬레이션 환경을 활용하여 다양한 기하학적 형태의 부품을 정밀하게 조립하는 로봇 팔의 정책을 학습시킨다. 이 프레임워크의 궁극적인 목표는 시뮬레이션에서 학습된 조립 기술이 별도의 추가 튜닝 없이 현실 세계의 로봇에 즉시 적용되는, 완전한 ’제로샷 Sim-to-Real 이전’을 달성하는 것이다.6

이러한 NVIDIA의 통합 플랫폼 전략은 이미 산업계에서 강력한 영향력을 발휘하고 있다. Boston Dynamics, Agility Robotics, Sanctuary AI, XPENG Robotics 등 세계 유수의 휴머노이드 및 로봇 기업들이 NVIDIA의 개발 플랫폼을 채택하고 있으며, 이는 NVIDIA가 물리 AI 시대의 사실상 표준(de facto standard)으로 자리 잡고 있음을 시사한다.4

결론적으로, Google과 NVIDIA의 접근 방식은 물리 AI 개발의 패러다임이 근본적으로 변화하고 있음을 보여준다. 개발자의 역할은 더 이상 특정 작업을 위한 알고리즘을 설계하는 것에 국한되지 않는다. 이제는 고품질의 대규모 데이터를 어떻게 확보하고(Google의 접근), 이를 가장 효율적으로 학습하고 검증할 수 있는 시뮬레이션 환경을 어떻게 구축하고 활용하는가(NVIDIA의 접근)가 로봇 기술의 성패를 좌우하는 핵심 역량이 되었다. 이는 소프트웨어 개발에서 컴파일러와 통합개발환경(IDE)이 필수 도구가 된 것처럼, 로보틱스 개발에서 시뮬레이션 플랫폼이 선택이 아닌 필수 인프라가 되어가고 있음을 의미한다.

구분 (Category)Google/DeepMindNVIDIA
대표 프레임워크ALOHA Unleashed, DemoStartIsaac Lab, AutoMate
핵심 학습 방법론모방 학습 (IL), 강화 학습 (RL)강화 학습 (RL), 모방 학습 (IL)
데이터 소스실제 원격 조종 데이터, 시뮬레이션시뮬레이션 기반 합성 데이터 (Sim-to-Real)
주요 하드웨어저비용 오픈소스 로봇 (ALOHA)Jetson (엣지), DGX (학습), RTX (시뮬레이션)
전략적 목표고도의 정교함을 갖춘 범용 에이전트 AI 개발물리 AI 개발을 위한 통합 플랫폼 및 생태계 구축

[표 2] Google 및 NVIDIA의 주요 로봇 학습 프레임워크 비교 (2024년 7월 기준) 4

4. 학계를 중심으로 한 선도적 연구 성과: 응용과 탐색

산업계가 플랫폼 구축과 범용 AI 개발에 집중하는 동안, 학계에서는 AI와 로봇 기술을 특정 도메인의 난제를 해결하는 데 적용하거나, 인간과 로봇의 근본적인 상호작용을 탐구하는 선도적인 연구들이 활발하게 이루어졌다. 2024년 7월에 발표된 연구들은 로봇 기술의 역할이 단순한 ’자동화(Automation)’를 넘어, 인간의 능력을 보완하고 위험을 대신하는 ‘증강(Augmentation)’, 그리고 이전에는 불가능했던 미지의 영역을 탐험하는 ’탐사(Exploration)’로 확장되고 있음을 보여준다.

4.1 물리 세계와의 상호작용: Physical AI의 응용

AI가 복잡한 물리 시스템을 이해하고 제어하는 능력은 다양한 산업 분야에서 혁신을 이끌고 있다. 특히 에너지, 위험 환경, 건설 및 인프라 분야에서 주목할 만한 성과가 발표되었다.

에너지 분야 (퍼듀 대학교): 퍼듀 대학교 연구진은 차세대 원자력 에너지원으로 주목받는 소형 모듈 원자로(SMR)의 성능과 안전성을 획기적으로 개선할 수 있는 새로운 머신러닝 알고리즘을 개발했다.2 이 연구의 핵심은 실제 원자로(PUR-1)를 정밀하게 복제한 ’디지털 트윈(Digital Twin)’을 활용한 것이다. 연구팀은 이 디지털 트윈 환경에서 AI 알고리즘을 훈련시켜, 원자로가 얼마나 안정적으로 전력을 생산하는지를 나타내는 핵심 지표(중성자속 등)의 미세한 변화를 99%의 높은 정확도로 예측하는 데 성공했다.2 이는 AI가 잠재적인 이상 징후를 사전에 감지하고 최적의 운전 조건을 유지하도록 돕는다는 것을 의미한다. 이 기술은 SMR의 운영 및 유지보수 비용을 절감하여 경제성을 확보하는 데 결정적인 역할을 할 수 있으며, AI가 원자력 발전소와 같은 극도로 복잡하고 중요한 물리 시스템의 제어 및 최적화에 직접적으로 기여할 수 있음을 보여주는 강력한 사례다.

위험 환경 정화 (아르곤 국립 연구소): 아르곤 국립 연구소는 7월 3일, 원자력 발전소 사고 현장이나 핵 폐기물 처리 시설과 같이 인간이 접근하기에 극도로 위험한 환경에서 작업을 수행할 수 있는 원격 조종 로봇 시스템에 대한 연구를 발표했다.19 이 연구는 로봇을 활용하여 작업자의 안전을 확보하고 작업 효율성을 높이는 것을 목표로 하며, 인간과 유사한 형태의 로봇을 통해 복잡한 정화 작업을 수행하는 기술을 다루고 있다. 이는 로봇이 인간을 대신하여 위험을 감수하는 ’증강’의 역할을 수행하는 대표적인 예다.

건설 및 인프라 (Vayu Robotics, FBR): 상용화 분야에서도 의미 있는 진전이 있었다. Vayu Robotics는 AI 파운데이션 모델과 저가형 센서를 결합하여 복잡한 도심 환경에서 자율적으로 주행하며 물품을 배송하는 로봇을 출시했다.3 또한, 호주의 FBR사는 거대한 로봇 팔을 이용해 정밀하게 벽돌을 쌓아 올리는 자동화 건설 로봇 ’Hadrian X’를 미국 시장에 처음으로 도입했다.3 이러한 기술들은 건설 및 물류 산업의 인력 부족 문제를 해결하고 생산성을 향상시키는 데 기여할 것으로 기대된다.

4.2 인간-로봇 상호작용 및 의료 로봇 공학의 새로운 지평

로봇이 점차 공장을 벗어나 우리의 일상과 신체 내부로 들어오면서, 인간과 어떻게 안전하고 효과적으로 상호작용할 것인지, 그리고 어떻게 의학적 난제를 해결할 것인지에 대한 연구가 중요해지고 있다.

인간-로봇 상호작용 (UC 샌디에이고): UC 샌디에이고 연구팀은 저명한 로봇 공학 학회인 ICRA 2024에서 흥미로운 연구 결과를 발표했다.20 이 연구는 혼잡한 환경(가상 식료품점)에서 인간이 로봇과 마주쳤을 때, 목표 달성(보상)을 위해 어느 정도의 위험(가상의 감염병에 걸릴 확률)을 감수하는지를 실험했다. 연구 결과, 사람들은 설문조사에서 응답한 것보다 실제 행동에서는 보상이 주어질 경우 훨씬 더 큰 위험을 감수하는 경향을 보였다. 이는 인간의 의사결정이 항상 합리적이지 않다는 것을 보여준다. 이 발견은 로봇의 행동 계획 알고리즘 설계에 중요한 시사점을 던진다. 단순히 최단 경로를 계산하거나 효율성만을 최적화하는 전통적인 알고리즘 대신, 노벨 경제학상 수상자인 대니얼 카너먼이 제시한 ’전망 이론(Prospect Theory)’과 같이 인간의 비합리적이고 편향된 의사결정 과정을 모델링하는 접근법이 필요하다는 것이다.20 이는 로봇의 사회적 수용성을 높이기 위해서는 공학적 완결성뿐만 아니라, 인간 심리 및 행동 경제학에 대한 깊은 이해가 필수적임을 보여준다.

의료 로봇 (UC 샌디에이고, 리즈 대학교): 의료 분야에서는 인체의 한계를 극복하고 질병을 정복하기 위한 ‘탐사’ 로봇 기술이 괄목할 만한 성과를 보였다. UC 샌디에이고 연구진은 암세포에 직접 항암제를 전달하는 마이크로 로봇과, 알약 형태로 섭취하면 대장까지 이동하여 염증성 장질환(IBD)을 치료하는 마이크로 로봇을 개발하여 동물 실험에서 그 효과를 입증했다.20 이는 전신 부작용을 최소화하고 치료 효과를 극대화할 수 있는 새로운 약물 전달 방식의 가능성을 열었다.

리즈 대학교와 UC 샌디에이고가 공동 개발한 ’자기 덩굴 로봇(magnetic vine robots)’은 소프트 로보틱스 분야의 혁신적인 성과다.20 이 로봇은 외부 자기장을 이용해 덩굴 식물처럼 스스로 ‘자라면서’ 이동하며, 자신의 직경보다 40%나 더 좁은 틈도 유연하게 통과할 수 있다. 이 기술은 폐 속의 기관지처럼 복잡하고 좁은 인체 내부 경로를 비침습적으로 탐색하여 암을 정밀하게 진단하고 치료하는 데 활용될 수 있다. 이는 로봇이 단순히 인간의 노동을 대체하는 것을 넘어, 인간의 지각과 행동 능력을 확장하고, 과학적 발견과 의학적 진보를 위한 새로운 도구가 될 수 있음을 명확히 보여준다.

5. 로봇 학습 및 제어의 근본적 패러다임 변화: 알고리즘의 심층 분석

2024년 7월의 기술적 성취들은 표면적인 응용을 넘어, 로봇이 세상을 인식하고 행동하는 방식을 학습하는 근본적인 알고리즘 수준에서의 패러다임 변화에 의해 뒷받침되고 있다. 특히 모방 학습(Imitation Learning), 생성 모델(Generative Models), 강화 학습(Reinforcement Learning) 분야에서 이루어진 이론적, 방법론적 진보는 물리 AI 시대의 기술적 토대를 형성하고 있다. 이러한 발전은 어느 한 가지 방법론이 다른 것을 완전히 대체하는 것이 아니라, 각기 다른 접근법들이 서로의 장점을 취하고 단점을 보완하며 함께 발전하는 ‘방법론적 다원주의’ 시대로 진입하고 있음을 시사한다.

5.1 모방 학습의 진화: 불완전한 데이터로부터의 학습

모방 학습은 인간 전문가의 시연을 모방하여 로봇이 기술을 배우는 직관적이고 강력한 방법이다. 그러나 실제 인간의 시연 데이터는 종종 불필요한 동작, 실수, 다양한 스타일 등 ’불완전성(imperfection)’을 내포하고 있어, 이를 그대로 학습할 경우 로봇의 성능 저하를 야기할 수 있다.21 따라서 최근 연구들은 이러한 불완전한 데이터로부터 사용자의 진정한 ’의도’를 추출하고 강건한 정책을 학습하는 데 초점을 맞추고 있다.

Wen 등이 발표한 연구에서는 제약된 마르코프 결정 과정(Constrained Markov Decision Process, CMDP)과 같은 프레임워크를 제안했다. 이 접근법은 시연 데이터에 내재된 오류나 비효율적인 부분은 학습 과정에서 제약 조건으로 작용하여 걸러내고, 작업의 핵심적인 목표 달성과 관련된 효율적인 측면과 시연자의 고유한 ’스타일’은 보상 함수를 통해 학습하도록 유도한다.21 이는 로봇이 단순히 궤적을 복사하는 것을 넘어, 시연에 담긴 본질적인 목표와 개성을 함께 학습하게 하는 진일보한 방식이다.

더 나아가, 어떤 시연 데이터가 학습에 유용하고 어떤 데이터가 해로운지를 자동으로 선별(curating)하는 연구가 활발히 진행되고 있다. Demo-SCORE와 CUPID는 이러한 데이터 큐레이션 분야의 대표적인 최신 연구다.23 Demo-SCORE는 먼저 모든 시연 데이터로 초기 정책을 학습시킨 뒤, 이 정책을 실제 환경에서 실행(rollout)하여 얻은 성공 및 실패 경험 데이터를 수집한다. 그리고 이 경험 데이터를 바탕으로 성공적인 궤적과 실패한 궤적을 구별하는 분류기(classifier)를 훈련시킨다. 마지막으로, 이 분류기를 원래의 시연 데이터셋에 적용하여 성공 확률이 낮다고 판단되는, 즉 신뢰도가 낮은 시연 데이터를 필터링하는 방식으로 작동한다.24

CUPID(CUrating Performance-Influencing Demonstrations)는 여기서 한 걸음 더 나아가, 데이터 귀인(data attribution) 분야에서 사용되는 ’영향 함수(influence function)’라는 수학적 도구를 도입한다.25 영향 함수는 특정 훈련 데이터 포인트 하나가 모델의 최종 성능에 미치는 영향을 정량적으로 추정하는 기법이다. CUPID는 이를 모방 학습에 적용하여, 각각의 시연 데이터가 최종적으로 학습된 정책의 기대 수익률(expected return)에 얼마나 긍정적 또는 부정적인 영향을 미치는지를 계산한다. 이 ’성능 영향 점수’를 통해 개발자는 학습에 해가 되는 데이터를 제거하거나, 새로 수집된 데이터 중 가장 유용한 것만을 선별하여 학습 데이터셋을 최적화할 수 있다. CUPID의 성능 영향 함수(\Psi^{\pi\text{-inf}})는 다음과 같이 정의된다 25:
\Psi^{\pi\text{-inf}}(\xi) := \frac{\text{d}J(\pi_\theta)}{\text{d}\epsilon} \bigg\rvert_{\epsilon=0} = -\nabla_\theta J(\pi_\theta)^\top H_{\text{bc}}^{-1} \nabla_\theta l_{\text{traj}}(\xi;\pi_\theta)
이 수식에서 \xi는 특정 시연 궤적을, J(\pi_\theta)는 정책의 성능(기대 수익률)을, l_{\text{traj}}(\xi;\pi_\theta)는 해당 궤적에 대한 손실 함수를 의미한다. H_{\text{bc}}는 전체 학습 손실의 헤시안 행렬이다. 이 수식은 특정 시연 데이터 \xi의 손실이 전체 정책의 성능에 미치는 민감도를 계산함으로써, 각 데이터의 ’가치’를 정량화하는 강력한 방법을 제공한다.

5.2 생성 모델의 부상: Diffusion Policy를 이용한 궤적 생성

최근 로봇 조작(manipulation) 분야에서 가장 두드러진 변화는 이미지 생성 분야에서 경이로운 성공을 거둔 확산 모델(Diffusion Models)이 로봇의 연속적인 동작 궤적(trajectory)을 생성하는 ’Diffusion Policy’로 확장되어 적용되고 있다는 점이다.13 이는 로봇 제어 분야의 새로운 표준으로 빠르게 자리 잡고 있다.

Diffusion Policy의 가장 큰 기술적 장점은 ’다중 모드 분포(multi-modal distribution)’를 효과적으로 모델링할 수 있다는 것이다.26 예를 들어, 컵을 잡는 작업에는 위에서 잡기, 옆에서 잡기 등 여러 가지 동등하게 유효한 방법(모드)이 존재한다. 기존의 많은 모방 학습 알고리즘은 이러한 여러 모드들의 평균적인 행동을 학습하려는 경향이 있어, 결국 어떤 방법으로도 제대로 잡지 못하는 어정쩡한 행동을 생성하는 문제가 있었다. 반면, Diffusion Policy는 이러한 여러 개의 유효한 궤적 분포 전체를 학습하여, 상황에 따라 적절하고 다양한 해결책을 생성해낼 수 있다.

Diffusion Policy의 수학적 프레임워크는 두 가지 과정으로 구성된다.

  1. 순방향 프로세스 (Forward Process): 전문가의 시연 궤적과 같은 원본 데이터(x_0)에 시간 단계 T에 걸쳐 점진적으로 가우시안 노이즈를 추가하여, 최종적으로는 순수한 노이즈(x_T) 분포로 변환하는 과정이다. 이 과정은 수학적으로 정해져 있으며, t 시점의 데이터 x_t는 다음과 같이 표현된다.
    q(x_{1:T} \vert x_0) = \prod_{t=1}^{T} q(x_t \vert x_{t-1}) \quad \text{where} \quad q(x_t \vert x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t \mathbf{I})
    여기서 \beta_t는 각 시간 단계에서 추가되는 노이즈의 크기를 조절하는 스케줄 파라미터다.

  2. 역방향 프로세스 (Reverse Process): 순수한 노이즈(x_T)에서 시작하여, 순방향 과정의 역을 수행함으로써 원본 데이터를 복원하는 과정이다. 이 역방향 과정은 알 수 없기 때문에, 신경망(\epsilon_\theta)을 사용하여 각 시간 단계 t에서 데이터 x_t에 추가된 노이즈를 예측하고 제거하는 방식으로 근사한다.
    p_\theta(x_{0:T}) = p(x_T) \prod_{t=1}^{T} p_\theta(x_{t-1} \vert x_t) \quad \text{where} \quad p_\theta(x_{t-1} \vert x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))
    신경망은 \mu_\theta(x_t, t)를 예측하도록 훈련되며, 이 과정을 반복하면 최종적으로 노이즈가 제거된 깨끗한 궤적 데이터(\hat{x}_0)를 생성할 수 있다.

이러한 프레임워크는 로봇이 복잡하고 다양한 동작을 자연스럽게 생성하도록 하는 데 매우 효과적인 것으로 입증되고 있다.

5.3 강화 학습의 이론적 재조명: 연속 공간에서의 벨만 방정식

강화 학습은 오랫동안 일반 인공지능을 향한 가장 유력한 경로로 여겨져 왔으며, 그 이론적 근간에는 ’벨만 방정식(Bellman Equation)’이 있다. 벨만 방정식은 현재 상태의 가치가 즉각적인 보상과 미래 상태의 가치의 합으로 표현된다는 원리로, 최적의 행동 정책을 찾는 대부분의 강화 학습 알고리즘의 기초가 된다.33 상태와 행동의 개수가 유한한 간단한 환경(tabular settings)에서는 벨만 방정식을 만족하는 최적 가치 함수(optimal value function)가 유일하게 존재한다는 것이 잘 알려져 있다.35

그러나 로봇 제어와 같이 상태 공간이 연속적인(continuous state spaces) 현실 문제에서는 상황이 다르다. 2024년 7월에 주목받은 Haoxiang You 등의 연구는 이 연속 공간에서 벨만 방정식의 해가 유일하지 않다는, 강화 학습 커뮤니티에서 간과되어 온 중요한 문제를 정면으로 제기했다.34

이 연구는 n차원의 상태 공간을 갖는 선형 동역학 시스템에서 벨만 방정식이 최소 \binom{2n}{n}개의 서로 다른 해를 가짐을 수학적으로 증명했다. 이 해의 개수는 상태 차원 n이 커짐에 따라 지수적으로(\sim 4^n / \sqrt{\pi n}) 증가한다.34 더 심각한 문제는, 이 기하급수적으로 많은 해 중에서 단 하나의 해만이 시스템을 안정적으로 제어하는 ’안정적인 폐쇄 루프 시스템(stable closed-loop system)’을 유도하는 진정한 최적의 해라는 점이다. 나머지 해들은 수학적으로는 벨만 방정식을 만족하지만, 이를 기반으로 한 정책은 시스템을 불안정하게 만들어 결국 실패로 이끈다.

이는 가치 기반 강화 학습(value-based RL) 방법들이 근본적인 위험을 내포하고 있음을 시사한다. 알고리즘이 수많은 불안정한 해 중 하나로 수렴할 가능성이 항상 존재하며, 이는 특히 고차원 로봇 제어 문제에서 심각한 실패 요인이 될 수 있다.

참고로, 표준적인 벨만 최적 방정식은 상태-가치 함수 V^*(s)와 행동-가치 함수 Q^*(s,a)에 대해 다음과 같이 표현된다.33

  • 상태-가치 함수 V^*(s)에 대하여:

V^*(s) = \max_{a \in \mathcal{A}} \left( R(s,a) + \gamma \sum_{s' \in \mathcal{S}} P(s' \vert s,a)V^*(s') \right)
행동-가치 함수 Q^*(s,a)에 대하여:

Q^*(s,a) = R(s,a) + \gamma \sum_{s' \in \mathcal{S}} P(s' \vert s,a) \max_{a' \in \mathcal{A}} Q^*(s', a')

이 방정식들은 최적 정책 하에서 현재 상태(또는 상태-행동 쌍)의 가치가, 즉각적인 보상(R)과 할인율(\gamma)이 적용된 다음 상태의 최적 가치의 기댓값의 합과 같다는 ’최적성의 원리(principle of optimality)’를 나타낸다. 연속 공간에서의 해의 비유일성 문제는 바로 이 방정식을 만족하는 V^* 또는 Q^*가 여러 개 존재할 수 있다는 것이다.

연구 분야 (Area)대표 논문/방법론 (Paper/Method)핵심 기여 (Key Contribution)방법론 요약 (Method Summary)
데이터 큐레이션CUPID 25영향 함수를 이용해 시연 데이터의 성능 기여도 정량화\Psi^{\pi\text{-inf}}(\xi)를 계산하여 정책 성능에 긍정적/부정적 영향을 미치는 데이터를 선별
궤적 생성Diffusion Policy 26생성 모델을 이용한 다중 모드 궤적 생성순방향(노이즈 추가) 및 역방향(노이즈 제거) 프로세스를 통해 전문가 궤적 분포 학습
강화학습 이론Bellman Eq. Non-uniqueness 35연속 상태 공간에서 벨만 방정식 해의 비유일성 증명선형 동역학 시스템에서 \binom{2n}{n}개의 해가 존재하며, 이 중 단 하나만 안정적임을 보임

[표 3] 2024년 7월 발표된 핵심 로봇 학습 알고리즘 요약

6. 결론 및 향후 전망

2024년 7월 한 달간 발표된 AI 및 로봇 공학 분야의 연구 성과들은 하나의 거대한 흐름을 가리키고 있다. 바로 시뮬레이션-학습-하드웨어의 선순환 구조가 물리 AI의 발전을 가속화하는 핵심 동력으로 자리 잡았다는 것이다. Google과 NVIDIA를 필두로 한 산업계는 대규모 시뮬레이션 환경에서 생성된 방대한 데이터를 기반으로 로봇의 복잡한 행동 정책을 학습시키는 새로운 패러다임을 주도하고 있다. 동시에 학계는 이러한 기술을 원자력, 의료, 건설 등 구체적인 응용 분야로 확장하고, 그 과정에서 발생하는 인간-로봇 상호작용의 문제나 알고리즘의 이론적 한계를 깊이 파고드는 연구를 통해 기술의 외연과 내실을 다지고 있다.

이러한 동향을 바탕으로 향후 AI 및 로봇 공학 분야는 다음과 같은 방향으로 발전할 것으로 전망된다.

첫째, 휴머노이드 로봇과 파운데이션 모델의 본격적인 결합이 이루어질 것이다. NVIDIA가 개발 중인 로봇 파운데이션 모델 프로젝트 GR00T와 같이, 언어, 시각, 행동을 아우르는 대규모 멀티모달 모델이 인간의 형태를 닮은 휴머노이드 로봇에 탑재될 것이다.17 이는 하나의 로봇이 특정 작업에만 특화되는 것이 아니라, 언어적 지시를 이해하고 다양한 물리적 과업을 수행할 수 있는 범용 로봇의 등장을 의미한다. 이는 현재의 로봇 시장을 근본적으로 변화시키고, 진정한 의미의 ’가사 로봇’이나 ‘산업 현장의 동료 로봇’ 시대를 열 잠재력을 가진다.

둘째, Sim-to-Real 격차 해소 기술이 핵심 연구 주제로 부상할 것이다. 시뮬레이션 기반 학습이 보편화됨에 따라, 시뮬레이션 환경과 현실 세계 간의 미세한 차이, 즉 ’Sim-to-Real gap’을 극복하는 것이 정책 성능의 성패를 가르는 핵심 과제가 될 것이다. 현재 널리 사용되는 도메인 무작위화를 넘어, 소량의 실제 데이터를 활용하여 시뮬레이터를 현실에 가깝게 미세 조정하는 기술이나, 시뮬레이션 정책을 현실에 맞게 변환하는 이전 과정 자체를 학습하는 메타-학습(meta-learning) 기반의 연구가 더욱 활발해질 것으로 예상된다.

셋째, 기술의 안전성과 신뢰성 확보가 최우선 과제가 될 것이다. 로봇이 원자로 제어, 자율 주행, 의료 수술 보조, 그리고 일상생활 공간과 같이 인간의 안전과 직결되는 중요한 영역(safety-critical domains)으로 확장됨에 따라, AI 모델의 예측 불가능성과 잠재적 위험성은 더 이상 간과할 수 없는 사회적, 기술적 과제로 부상할 것이다. 벨만 방정식의 안정적인 해를 찾는 연구에서 보았듯이, 로봇 행동의 안정성과 신뢰성을 수학적으로 보장하고 검증하려는 노력이 기술 개발의 필수적인 부분으로 자리 잡을 것이다.35

결론적으로, 2024년 7월은 물리 AI가 이론적 가능성을 넘어 산업과 일상에 실질적인 영향을 미치기 시작한 중요한 변곡점으로 기록될 것이다. 앞으로 우리에게 주어진 도전 과제는 단순히 기술의 성능을 높이는 것을 넘어, 이 강력한 기술을 어떻게 더 안전하고, 신뢰할 수 있으며, 궁극적으로 인간 사회에 유익한 방향으로 발전시켜 나갈 것인가에 있다.40 이 질문에 대한 해답을 찾는 과정이 미래 AI 및 로봇 공학의 역사를 만들어갈 것이다.

7. 참고 자료

  1. 2024년 로봇 트렌드 : 인공지능의 도입이 활발해진다, https://www.irsglobal.com/bbs/rwdboard/21691
  2. Latest in AI research: Improving life and wellness through innovation …, https://www.purdue.edu/newsroom/2024/Q3/latest-in-ai-research-improving-life-and-wellness-through-innovation/
  3. Top 10 robotics stories of July 2024 - The Robot Report, https://www.therobotreport.com/top-10-robotics-stories-of-july-2024/
  4. What Is NVIDIA’s Three-Computer Solution for Robotics?, https://blogs.nvidia.com/blog/three-computers-robotics/
  5. NVIDIA Advances Physical AI With Accelerated Robotics Simulation on AWS, https://blogs.nvidia.com/blog/physical-ai-robotics-isaac-sim-aws/
  6. Training Sim-to-Real Transferable Robotic Assembly Skills over …, https://developer.nvidia.com/blog/training-sim-to-real-transferable-robotic-assembly-skills-over-diverse-geometries/
  7. Google DeepMind discusses latest advances in robot dexterity, https://www.therobotreport.com/inside-google-deepmind-latest-advances-in-robot-dexterity/
  8. 2024년 인공지능 글로벌 트렌드, https://signal.sedaily.com/Common/FileDownload?fileName=241121_%EC%97%B0%EA%B5%AC%EC%86%8C_2024%EB%85%84_%EA%B8%80%EB%A1%9C%EB%B2%8C_%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5_%ED%8A%B8%EB%A0%8C%EB%93%9C.pdf&fullPath=/Service/Branch/Signal/Report/2024/11/22/241121_%EC%97%B0%EA%B5%AC%EC%86%8C_2024%EB%85%84_%EA%B8%80%EB%A1%9C%EB%B2%8C_%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5_%ED%8A%B8%EB%A0%8C%EB%93%9C.pdf
  9. 인공 지능 [AI] 시장 규모, 성장 및 동향 2032 년 - Fortune Business Insights, https://www.fortunebusinessinsights.com/ko/industry-reports/artificial-intelligence-market-100114
  10. 2024: A year of extraordinary progress and advancement in AI - Google Blog, https://blog.google/technology/ai/2024-ai-extraordinary-progress-advancement/
  11. Our latest advances in robot dexterity - Google DeepMind, https://deepmind.google/discover/blog/advances-in-robot-dexterity/
  12. The Aloha Project - Trossen Robotics, https://www.trossenrobotics.com/the-aloha-project
  13. ALOHA Unleashed: A Simple Recipe for Robot Dexterity - arXiv, https://arxiv.org/html/2410.13126v1
  14. A Simple Recipe for Robot Dexterity - ALOHA Unleashed, https://aloha-unleashed.github.io/assets/aloha_unleashed.pdf
  15. DemoStart: Demonstration-led auto-curriculum applied to sim-to-real with multi-fingered robots - arXiv, https://arxiv.org/html/2409.06613v1
  16. Home - Google Sites, https://sites.google.com/view/demostart
  17. Celebrating More Than 2 Million Developers Embracing NVIDIA Robotics, https://blogs.nvidia.com/blog/2-million-robotics-developers/
  18. Fast-Track Robot Learning in Simulation Using NVIDIA Isaac Lab …, https://developer.nvidia.com/blog/fast-track-robot-learning-in-simulation-using-nvidia-isaac-lab/
  19. Robotics | Argonne National Laboratory, https://www.anl.gov/topic/science-technology/robotics
  20. News Archive | Contextual Robotics Institute, https://contextualrobotics.ucsd.edu/archive
  21. AI Frontiers: Robotics Breakthroughs from cs.RO (2025-07-12) - YouTube, https://www.youtube.com/watch?v=axhiHyc8wtA
  22. Aligning Human Intent from Imperfect Demonstrations with Confidence-based Inverse soft-Q Learning - arXiv, https://arxiv.org/html/2312.11194v3
  23. Curating Demonstrations using Online Experience - arXiv, https://arxiv.org/html/2503.03707v1
  24. Curating Demonstrations using Online Experience - Robotics, https://www.roboticsproceedings.org/rss21/p071.pdf
  25. CUPID: Curating Data your Robot Loves with … - OpenReview, https://openreview.net/pdf/e632b12e34fc4df22c1e323c8551ddf3ec84ce3f.pdf
  26. arxiv.org, https://arxiv.org/html/2504.08438v1
  27. Efficient Task-specific Conditional Diffusion Policies: Shortcut Model Acceleration and SO(3) Optimization - arXiv, https://arxiv.org/html/2504.09927v1
  28. Diffusion Models for Robotic Manipulation: A Survey - ResearchGate, https://www.researchgate.net/publication/390748966_Diffusion_Models_for_Robotic_Manipulation_A_Survey
  29. Diffusion models for robotic manipulation: a survey - ResearchGate, https://www.researchgate.net/publication/395481214_Diffusion_models_for_robotic_manipulation_a_survey
  30. [PDF] Diffusion models for robotic manipulation: a survey - Semantic Scholar, https://www.semanticscholar.org/paper/03bf2fcfd2fd10b55ed90a7bedbe87c96dcd6995
  31. Diffusion Models for Robotic Manipulation: A Survey | AI Research Paper Details, https://www.aimodels.fyi/papers/arxiv/diffusion-models-robotic-manipulation-survey
  32. Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition - arXiv, https://arxiv.org/html/2510.01068v1
  33. Signatures Meet Dynamic Programming: Generalizing Bellman Equations for Trajectory Following - arXiv, https://arxiv.org/html/2312.05547v2
  34. Is Bellman Equation Enough for Learning Control? - arXiv, https://arxiv.org/pdf/2503.02171
  35. arxiv.org, https://arxiv.org/html/2503.02171v2
  36. Is Bellman Equation Enough for Learning Control? - ResearchGate, https://www.researchgate.net/publication/389581761_Is_Bellman_Equation_Enough_for_Learning_Control
  37. [Literature Review] Is Bellman Equation Enough for Learning Control? - Moonlight, https://www.themoonlight.io/en/review/is-bellman-equation-enough-for-learning-control
  38. [2503.02171] Is Bellman Equation Enough for Learning Control? - arXiv, https://arxiv.org/abs/2503.02171
  39. Is Bellman Equation Enough for Learning Control? | Article Information - J-Global, https://jglobal.jst.go.jp/en/detail?JGLOBAL_ID=202502211651542372
  40. Google AI - How we’re making AI helpful for everyone, https://ai.google/
  41. The future of AI-powered work for every business | Google Workspace Blog, https://workspace.google.com/blog/product-announcements/empowering-businesses-with-AI